Regressão

Modelos de Regressão Linear e Múltipla
Análise de Dados Ambientais

Luiz Diego Vidal Santos

Universidade Estadual de Feira de Santana (UEFS)

REGRESSÃO

REGRESSÃO

Definição

  • Técnica de análise de dados que explica quanto uma ou mais variáveis preditoras (VIs) explicam ou estão associadas com um desfecho (VD)

  • Regressão linear simples Uma variável dependente e uma variável independente

  • Regressão linear múltipla Uma variável dependente e várias variáveis independentes

  • Regressão logística Uma variável dependente (dicotômica) e uma ou mais variáveis independentes

  • Regressão multinomial Uma variável dependente (politômica) e uma ou mais variáveis independentes

REGRESSÃO LINEAR

O quanto uma ou mais variáveis explicam outra

REGRESSÃO LINEAR

Definição

  • Diferentemente da correlação, a regressão tem uma direcionalidade Autoestima

Conquistas educacionais

Autoestima

Conquistas educacionais

Variável dependente Variável desfecho

Variável independente Variável preditora

REGRESSÃO LINEAR

Como se calcula a regressão

Y = B0 + BxX + E

Em que:

Y = variável dependente.

B0 = intercepto (constante).

Bx = o nível sobre o quanto X impacta Y. X = variável independente.

E = erro aleatório.

REGRESSÃO LINEAR

Um empresário quer saber o quanto o investimento em propagandas aumentou as suas

vendas ao longo do mês.

Propaganda (VI)

Vendas (VD)

REGRESSÃO LINEAR

Um empresário quer saber o quanto o investimento em propagandas aumentou as suas

vendas ao longo do mês.

Y = o desfecho (vendas)

B0 = intercepto (constante) -> o escore no desfecho quando o preditor tem valor = 0 (quando

ele não investia em propaganda, qual era o valor de y (vendas)?

X = o nível do preditor (o quanto foi investido em propaganda).

Bx = o grau sobre o quanto X (propaganda) impacta Y (venda).

E = a porção de variância não explicada pela variável independente (o quanto a propaganda não foi útil para aumentar a venda)

REGRESSÃO LINEAR

Um empresário quer saber o quanto o investimento em propagandas aumentou as suas

vendas ao longo do mês.

Constante (Bo)

A regressão irá traçar a linha que explica a influência da variável preditora no desfecho.

As variações se dão por razões externas que explicam a venda (para além da propaganda).

Por causa dessas influências externas, nenhum modelo é perfeito (livre de erro), e por isso nenhum preditor é capaz de prever 100% o desfecho.

REGRESSÃO LINEAR

Informações** ****que**** ****a**** ****regressão**** ****traz****:**

  • Sabemos o quanto Y (desfecho) aumenta para cada valor de X (variável preditora)
  • Para cada um real investido em propaganda, as vendas aumentaram xR$.
  • Sabemos o quanto (em %) Y aumenta quando da presença da variável X;
  • No total, o investimento em propaganda aumentou as vendas em X% (R2 → poder explicativo do modelo).

REGRESSÃO LINEAR

Tipos** ****de**** ****variáveis**

Variável dependente

  • Sempre ordinal ou escalar (ou seja, uma variável crescente) Variável independente

  • Pode ser de diferentes categorias

  • Ordinal, escalar ou categórica (dicotômica; se politômica, usar dummy)

REGRESSÃO LINEAR

Principais** ****pressupostos**

  • Linearidade
  • Variância não nula
  • Homocedasticidade dos resíduos
  • Independência dos resíduos (colinealidade)
  • Distribuição normal dos resíduos

REGRESSÃO LINEAR

Vamos** ****à**** ****prática…**

REGRESSÃO LINEAR MÚLTIPLA

REGRESSÃO LINEAR (cont.)

MÚLTIPLA

Equivalente à regressão linear simples, com a diferença de que são adicionados

vários preditores

  • Sistema de preparo do solo (Plantio Direto, Cultivo Mínimo, Convencional)
  • Tipo de cultura antecedente (leguminosas, gramíneas, sem cobertura)
  • Uso de adubação verde
  • Inoculação com microrganismos (ex: Azospirillum brasilense)
  • Mecanização
  • Rotação de culturas vs. monocultura

REGRESSÃO LINEAR (cont.)

MÚLTIPLA

Simples:** **Y = B0 + BxX + E

Múltipla:** Y = B0 + B*****1******X******1****** ******+****** ******B******2******X******2****** ******+****** ******…****** ******+****** ******B******n******X******n****** ***+ E

REGRESSÃO LINEAR (cont.)

MÚLTIPLA

Métodos de Entrada Característica Vantagens Desvantagens
Enter (Inserir) Todas as variáveis são
inseridas de uma vez Simplicidade Multicolinearidade

Não apresenta o R2 de cada variável |

REGRESSÃO LINEAR (cont.)

MÚLTIPLA

Métodos de Entrada Característica Vantagens Desvantagens
Enter (Inserir) Todas as variáveis são
inseridas de uma vez Simplicidade Multicolinearidade

Não apresenta o R2 de cada variável | | Stepwise (Por etapa) | Variáveis inseridas passo-a-passo, com base na significância do F | Modelo mais parcimonioso Apresenta o R2 de cada variável | A significância de F sofre efeito do tamanho amostral. Efeito supressor* |

REGRESSÃO LINEAR (cont.)

MÚLTIPLA

Métodos de Entrada Característica Vantagens Desvantagens
Enter (Inserir) Todas as variáveis são
inseridas de uma vez Simplicidade Multicolinearidade

Não apresenta o R2 de cada variável | | Stepwise (Por etapa) | Variáveis inseridas passo-a-passo, com base na significância do F | Modelo mais parcimonioso Apresenta o R2 de cada variável | A significância de F sofre efeito do tamanho amostral. Efeito supressor* | | Forward (Avançar) | Variáveis inseridas passo-a-passo, com base na correlação parcial da VI com a VD | Modelo mais parcimonioso Apresenta o R2 de cada variável | Sofre influência das variáveis do modelo. Efeito supressor |

REGRESSÃO LINEAR (cont.)

MÚLTIPLA

Métodos de Entrada Característica Vantagens Desvantagens
Backward
(Retroceder) Variáveis excluídas
passo a-passo Elimina possíveis erros de inserção dos métodos stepwise e forward -

REGRESSÃO LINEAR (cont.)

MÚLTIPLA

Métodos de Entrada Característica Vantagens Desvantagens
Backward
(Retroceder) Variáveis excluídas
passo a-passo Elimina possíveis erros de inserção dos métodos stepwise e forward -
Remove (Remover) Escolha manual de quais variáveis serão excluídas para comparar modelos Pesquisador testa os modelos que gostaria Escolhas arbitrárias podem ser perigosas

REGRESSÃO LINEAR (cont.)

PROBLEMAS DAS VARIÁVEIS

Problema das variáveis

Independência** ****entre**** ****as**** ****variáveis**** (****multicolinearidade****)**

Variáveis independentes (não deve haver muita multicolinearidade).

  • Índice de tolerância: 1 - R² (não é o do modelo).
    • Deve ficar o mais próximo de 1,0 possível.
  • Também através do VIF
    • Valores de VIF > 10 → Multicolinearidade
    • Se Média de VIF for substancialmente > 1, Modelo tendencioso (Statitics → Colinearity Diagnosis). Próximo a 1, bom modelo.

REGRESSÃO LINEAR (cont.)

PROBLEMAS DAS VARIÁVEIS

Problemas das variáveis

Independência** ****entre**** ****os**** ****resíduos**.

  • Coeficiente de Durbin-Watson.
  • Deve ficar entre 1,5 e 2,5.

REGRESSÃO LINEAR (cont.)

PROBLEMAS DAS AMOSTRAS

Problemas da amostra

Resíduos** ****padronizados****: **Resíduos em valores Z, para que todas as variáveis sejam igualmente consideradas.

Resíduo** ****padronizado: **Acima de 3 → Outlier

  • Se 1% (99% de padrão) da amostra apresentar Resíduo padronizado acima de 2,5, → Problemas no modelo
  • Se 5% (95% de padrão) da amostra apresentar Resíduo padronizado acima de 2 → Problemas no modelo

REGRESSÃO LINEAR (cont.)

PROBLEMAS DAS AMOSTRAS

Problemas** ****da**** ****amostra**

Cook´s** ****Distance**

  • Avalia o efeito de um único caso no modelo como um todo. Valores maiores que 1 merecem atenção! Mahalanobis** ****Distance:**

  • N = 500; 5 Vis → Mahalanobis = 25 valor problemático;

  • N = 100; 3 Vis → Mahalanobis = 15 valor problemático;

  • N = 30; 2 Vis → Mahalanobis = 11 valor problemático;

REGRESSÃO LINEAR (cont.)

PROBLEMAS DAS VARIÁVEIS

Tamanho** ****amostral**

  • Regra geral → 50 + 8k, sendo k o número de variáveis. (Tabachnick & Fidell, 2019)

Mais confiável calcular no G*Power

REGRESSÃO LINEAR (cont.)

MÚLTIPLA

Vamos** ****à**** prática…**

REGRESSÃO MÚLTIPLA

Com variáveis DUMMY

REGRESSÃO MÚLTIPLA COM DUMMY

REGRESSÃO MÚLTIPLA COM DUMMY

Quando temos um preditor categórico politômico

  • Variáveis nominais:
    • Estado Civil
      • 1 = Solteiro; 2 = Noivo; 3 = Casado; 4 = Separado/Divorciado; 5 = Viúvo
    • Sistema de Cultivo
      • 1 = CC ; 2 = CM; 3 = PD
      • Números não apresentam sentido matemático e também não apresentam uma ordem
      • Não faz sentido, portanto, inserir o preditor nominal tal qual ele é DUMMY

REGRESSÃO MÚLTIPLA COM DUMMY (cont.)

REGRESSÃO MÚLTIPLA COM DUMMY

Dummy

  • Contrastar todas as categorias contra uma categoria de referência para que tenhamos todos os cenários
  • Criação de variáveis dummy (K -1)
    • Cultura antecedente
      • 1 = Controle ; 2 = Caupi; 3 = Crotalária; 4 = Millheto; 5 = Guandu
    • 4 variáveis dummy
    • Sempre k-1 (evitar multicolinearidade perfeita) DUMMY

REGRESSÃO MÚLTIPLA COM DUMMY (cont.)

REGRESSÃO MÚLTIPLA COM DUMMY

Criando uma tabela dummy

Controle Mata (variável de referência)

  • Categoria de referência sempre = 0
  • Caupi comparado com mata
  • Milheto comparado com mata
  • Guandu comparado com mata
  • Crotalária comparado com mata DUMMY
Original Dummy_1 Dummy_2 Dummy_3 Dummy_4
Controle 0 0 0 0
Controle 0 0 0 0
Controle 0 0 0 0
Caupi 1 0 0 0
Caupi 1 0 0 0
Caupi 1 0 0 0
Milheto 0 1 0 0
Milheto 0 1 0 0
Milheto 0 1 0 0
Guandu 0 0 1 0
Guandu 0 0 1 0
Guandu 0 0 1 0
Crotalária 0 0 0 1
Crotalária 0 0 0 1
Crotalária 0 0 0 1

REGRESSÃO LOGÍSTICA BINÁRIA

REGRESSÃO LOGÍSTICA

BINÁRIA

Diferença entre Regressão Linear X Regressão Logística

Diferentes tipos de regressão logística

  • Binária
  • Multinomial/Polinomial

REGRESSÃO LOGÍSTICA (cont.)

BINÁRIA

A regressão logística tem por finalidade modelar a probabilidade de ocorrência de um desfecho binário - ex: presença de praga (sim/não) - em função de um conjunto de variáveis explicativas, tais como umidade do solo, rotação de cultura, incidência de insetos benéficos, entre outras.

O que está sendo testado?

Hipótese nula (H₀): O modelo completo não melhora a predição em relação ao modelo nulo (sem preditores).→ As variáveis independentes não têm efeito conjunto significativo.

Hipótese alternativa (H₁): O modelo completo melhora significativamente a predição.→ Pelo menos uma variável independente contribui para explicar o desfecho.

REGRESSÃO LOGÍSTICA (cont.)

BINÁRIA

Tem por objetivo quantificar a probabilidade de um evento acontecer, de acordo com

os preditores inseridos no modelo

Regressão logística binária refere-se a um modelo onde a variável dependente tem

duas categorias

  • Depressivo Sim / Não
  • Morreu / Não morreu
  • Diabético / Não Diabético
  • Com ideação suicida / Sem ideação suicida

REGRESSÃO LOGÍSTICA (cont.)

BINÁRIA

Tem por objetivo quantificar a probabilidade de um evento acontecer, de acordo com os

preditores inseridos no modelo

Transformação logarítimica (logit) do modelo de regressão simples

*P(Y)** *=

1

1 1

1+𝑒−(𝑏𝑜+𝑏 𝑥 )

Regressão Simples

Regressão Múltipla

*P(Y)** *=

1

1 11 2 2

1+𝑒−(𝑏𝑜+𝑏 𝑥 +𝑏 𝑥 + …+𝑏𝑛𝑥𝑛)

REGRESSÃO LOGÍSTICA (cont.)

BINÁRIA

Cada sujeito está ou não está em um grupo

  • Exemplo: A probabilidade que pessoas que fumam terem desenvolvido câncer, comparado com os que não fumam.

  • Variável Desfecho: Não teve câncer de Pulmão (0) x Teve câncer de pulmão (1)

  • Variável preditora: Fumou x Não Fumou (Dicotômica)

  • Variável preditora: Número de cigarros fumado por mês (Contínua)

  • Variável preditora (Dummy): Marca do cigarro fumado (Hollywood, Marlboro, Camel, LuckyStrike)

REGRESSÃO LOGÍSTICA (cont.)

BINÁRIA

A probabilidade que pessoas que fumam terem desenvolvido câncer, comparado

com os que não fumam.

  • Variável preditora: Número de cigarros fumado por mês (Contínua) Número de cigarros

0

600

  • Teve câncer (1)
  • Não teve câncer (0)
  • Soma dos logaritmos das probabilidades preditas para cada observação, levando em conta a resposta observada

REGRESSÃO LOGÍSTICA (cont.)

BINÁRIA

Log-likelihood é uma estatística baseada em variância não explicada (resíduos)

  • Quanto menor o valor, melhor o modelo.

  • A qualidade do modelo é calculado através de uma estatística chamada -2LL

  • Ao adicionar novas variáveis, o valor do 2LL deve diminuir, atestando que a variável é capaz de melhorar** **o poder de predição do modelo;

  • Essa diminuição precisa ser estatisticamente significativa (distribuição qui-quadrado);

REGRESSÃO LOGÍSTICA (cont.)

Problema das variáveis

Independência** ****entre**** ****as**** ****variáveis**** (****multicolinearidade****)**

Variáveis independentes (não deve haver muita multicolinearidade).

  • Índice de tolerância: 1 - R² (não é o do modelo).
    • Deve ficar o mais próximo de 1,0 possível.
  • Também através do VIF
    • Valores de VIF > 10 → Multicolinearidade
    • Se Média de VIF for substancialmente > 1, Modelo tendencioso (Statitics → Colinearity Diagnosis). Próximo a 1, bom modelo. BINÁRIA

REGRESSÃO LOGÍSTICA (cont.)

Problemas da amostra

Resíduos** ****padronizados****: **Resíduos em valores Z, para que todas as variáveis sejam igualmente consideradas.

Resíduo** ****padronizado: **Acima de 3 → Outlier

  • Se 1% (99% de padrão) da amostra apresentar Resíduo padronizado acima de 2,5, → Problemas no modelo
  • Se 5% (95% de padrão) da amostra apresentar Resíduo padronizado acima de 2 → Problemas no modelo BINÁRIA

REGRESSÃO LINEAR

PROBLEMAS DAS AMOSTRAS

Problemas** ****da**** ****amostra**

Cook´s** ****Distance**

  • Avalia o efeito de um único caso no modelo como um todo. Valores maiores que 1 merecem atenção! Mahalanobis** ****Distance:**

  • N = 500; 5 Vis → Mahalanobis = 25 valor problemático;

  • N = 100; 3 Vis → Mahalanobis = 15 valor problemático;

  • N = 30; 2 Vis → Mahalanobis = 11 valor problemático;

REGRESSÃO LOGÍSTICA

BINÁRIA

Acessando** ****a**** ****qualidade**** ****do**** ****modelo**** (tamanho de efeito modelo)**

  • Quantifica o ganho informacional do modelo completo (com preditores) em relação a um modelo sem preditores. Pseudo** R****2**

Cox & Snell R2 (1989): Não atinge o valor de 1;

Nagelkerke R2 (1991) : Corrige a medida de Cox & Snell

McFradden R2(1974): Tende a puxar os valores para baixo

Tjur R2 (2009): Mais recente, menos utilizado, mas provavelmente o melhor indicador.

REGRESSÃO LOGÍSTICA (cont.)

BINÁRIA

Cox & Snell R2 (SPSS, JASP, JAMOVI, R)

Não atinge o valor de 1

  • Impossibilita interpretações
  • Pouco usado na literatura

REGRESSÃO LOGÍSTICA (cont.)

BINÁRIA

Nagelkerke** R****2**** (SPSS, JASP, JAMOVI, R)**

  • Explica em termos de %, o quanto o modelo com as Vis inclusas melhora a explicação em comparação ao modelo nulo;
  • Se o valor de R2 de nagelkerke for 0.30, isso significa que o modelo completo (que inclui as Vis) explica 30% da variação na probabilidade de ter câncer em comparação ao modelo nulo;
  • Em outras palavras, adicionando essas variáveis preditoras ao modelo, conseguimos melhorar a previsão do modelo em 30% em comparação a um modelo que não considera essas variáveis

REGRESSÃO LOGÍSTICA (cont.)

BINÁRIA

McFadden R2** (JASP, JAMOVI, R)**

  • Explica em termos de %, o quanto o modelo com as Vis inclusas melhora a explicação em comparação ao modelo nulo;
  • Em sua fórmula, tende a puxar “para baixo” o valor de R2

REGRESSÃO LOGÍSTICA (cont.)

BINÁRIA

Tjur´s** R****2**** (JASP, R)**

  • Refere-se à diferença absoluta entre as médias das probabilidade para cada grupo. Cada sujeito vai ter uma probabilidade de ser categorizado em uma outra categoria.
  • Exemplo de pesquisa
  • VD (Não ter câncer/tem câncer)
  • Vis (número de cigarros fumados, prática de exercícios físicos e idade);
  • N = 100 pessoas (50 com câncer 50 sem câncer);
    • Para as pessoas que tem câncer (VD =1), suas probabilidades previstas variam d 0.6 a 0.9;
    • Para as pessoas que não tem câncer (VD =0), suas probabilidades previstas podem variar de, digamos 0.1 a 0.4.
    • Serão computadas a média dessas probabilidades para o grupo 0 e para o grupo 1.

REGRESSÃO LOGÍSTICA (cont.)

BINÁRIA

Tjur´s** R****2**** (JASP, R)**

  • Para o grupo que teve câncer (VD = 1), a média das probabilidades previstas foi de 0.75. Para o grupo que não teve câncer (VD = 0), a média das probabilidades previstas foi de 0.25;
  • O R2 de Tjur é então calculado como a diferença absoluta entre essa duas médias, o que nete caso seria 0.75 - 0.25 = 0.50
  • Interpretação:
  • Em média, o modelo prevê uma probabilidade de 50% maior dos sujeitos do gurpo 1 estarem corretamente classificados no grupo 1.

REGRESSÃO LOGÍSTICA (cont.)

BINÁRIA

Acessando** ****o**** ****poder**** ****de**** ****predição**** ****das**** ****variáveis**

  • Avalia o quanto as variáveis são capazes de predizer o desfecho
  • Wald: Informa se o preditor é significativo ou não;
  • B e Exp(b): Razão da probabilidade

REGRESSÃO LOGÍSTICA (cont.)

BINÁRIA

Acessando** ****o**** ****poder**** ****de**** ****predição**** ****das**** ****variáveis**

  • Exp(b): Indica a probabilidade de o evento acontecer com base naquele preditor específico
    • Exp*(b)** *> 1: Quanto mais o preditor aumenta, maior a probabilidade do desfecho acontecer
    • Exp(b) < 1: Quanto mais o preditor aumenta, menor** **a probabilidade do desfecho acontecer

REGRESSÃO LOGÍSTICA (cont.)

BINÁRIA

Análises** ****da**** ****capacidade**** ****de**** ****predição**** ****do**** ****modelo**

  • Probabilities e Group Membership

  • Avalia a probabilidade de cada caso ser adequadamente categorizado, de acordo com o seu próprio padrão de resposta Classification plots

  • Histograma dos valores reais e previstos para o desfecho;

REGRESSÃO LOGÍSTICA (cont.)

BINÁRIA

Métricas de performance

Accuracy** ****(Acurácia)**:

  • Valor: 0.836
  • O** ****que**** ****é?**** **Mede a proporção total de previsões corretas.
  • Interpretação:
    • Uma acurácia de 83,6% significa que o modelo classificou corretamente 84,2% dos casos (positivos e negativos combinados).

REGRESSÃO LOGÍSTICA (cont.)

BINÁRIA

Métricas de performance

AUC** ****(Área**** ****sob**** ****a**** ****Curva**** ****ROC)**:

  • Valor: 0.886
  • O que é? Mede a capacidade do modelo de distinguir entre as classes (por exemplo, “Sim” e “Não”).
  • Interpretação:
    • Um AUC de 0.886 significa que há 88,4% de chance de o modelo atribuir uma probabilidade maior ao caso positivo (classe 1) do que ao caso negativo (classe 0).
    • AUC próximo de 1 indica excelente desempenho.

REGRESSÃO LOGÍSTICA (cont.)

BINÁRIA

Métricas de performance

Recall** ****(Sensibilidade)**:

  • Valor: 0.768
  • O** ****que**** ****é?**** **Mede a proporção de verdadeiros positivos que foram corretamente identificados.
  • Interpretação:
    • Com sensibilidade de 76,8%, significa que o modelo identificou corretamente 76,8% dos casos positivos reais.
  • Relevante** ****quando**** ****é**** ****importante**** ****não**** ****perder**** ****casos**** ****positivos**** **(ex.: diagnóstico médico).

REGRESSÃO LOGÍSTICA (cont.)

BINÁRIA

Métricas de performance

Specificity** ****(Especificidade)**:

  • Valor: 0.885
  • O** ****que**** ****é?**** **Mede a proporção de verdadeiros negativos corretamente identificados.
  • Interpretação:
    • Uma especificidade de 88,5% significa que o modelo identificou corretamente 88,2% dos casos negativos reais.
  • Relevante** ****quando**** ****é**** ****importante**** ****evitar**** ****falsos**** ****positivos**.

REGRESSÃO LOGÍSTICA (cont.)

BINÁRIA

Métricas de performance

Precision** ****(Precisão)**:

  • Valor: 0.831
  • O** ****que**** ****é?**** **Mede a proporção de verdadeiros positivos entre todas as previsões positivas.
  • Interpretação:
    • Com precisão de 83,1%, significa que, entre os casos previstos como “Sim”, 83,1% eram realmente positivos.
  • Relevante quando os dados estão** ****desbalanceados**, pois a precisão mostra quão confiáveis são as previsões positivas.

Obrigado!

Luiz Diego Vidal Santos

Universidade Estadual de Feira de Santana (UEFS)